AI资讯新闻榜单内容搜索- GPT-4o

OpenAI 放开成人内容？体验新版 GPT-4o 后，我想再次感谢 DeepSeek

Sam Altman 又当了一回谜语人。2 月 16 日，他宣布更新了我们的老朋友 GPT-4o，却没说细节。

来自主题: AI资讯

9128 点击 2025-02-19 15:03

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

4796 点击 2025-02-06 15:26

昨天，面壁低调（没媒体曝光）发布了新模型 MiniCPM-o 2.6：【开源】【端侧】比肩 GPT-4o，只有 8B，非常强！

来自主题: AI资讯

10710 点击 2025-01-16 13:22

在人工智能领域，与AI进行无缝的实时交互一直是开发者和研究者面临的一大挑战。特别是将文本、图片、音频等多模态信息整合成一个连贯的对话系统，更是难上加难。尽管像GPT-4这样的语言模型在对话流畅性和上下文理解上取得了长足进步，但在实际应用中，这些模型仍然存在不足之处：

来自主题: AI技术研报

10524 点击 2024-11-28 09:53

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

来自主题: AI资讯

7873 点击 2024-11-20 15:01

视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。

来自主题: AI技术研报

4445 点击 2024-11-05 15:28

与最先进的开源方法甚至闭源模型 GPT-4o 相比，MMedAgent 在各种医疗任务中实现了卓越的性能。此外，MMedAgent 在更新和集成新医疗工具方面表现出效率。

来自主题: AI技术研报

8299 点击 2024-11-04 09:49

苹果研究者发现：无论是OpenAI GPT-4o和o1，还是Llama、Phi、Gemma和Mistral等开源模型，都未被发现任何形式推理的证据，而更像是复杂的模式匹配器。无独有偶，一项多位数乘法的研究也被抛出来，越来越多的证据证实：LLM不会推理！

来自主题: AI技术研报

5510 点击 2024-10-19 16:32

o1 作为 OpenAI 在推理领域的最新模型，大幅度提升了 GPT-4o 在推理任务上的表现，甚至超过了平均人类水平。o1 背后的技术到底是什么？OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现？

来自主题: AI技术研报

5426 点击 2024-10-14 15:37

LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。

来自主题: AI资讯

4314 点击 2024-09-23 15:25